Normalização Textual e Indexação Semântica Aplicadas na Filtragem de SMS Spam

نویسندگان

  • Tiago P. Silva
  • Igor Santos
  • Tiago A. Almeida
  • José M. Gómez Hidalgo
چکیده

Resumo—Nos últimos anos, a popularização dos celulares e smartphones impulsionou o uso de SMS como forma alternativa e barata de comunicação. O crescimento de adeptos ao serviço aliado a alta confiança que os usuários possuem nesses tipos de mensagens, vêm atraindo a atenção de pessoas e empresas mal intencionadas, conhecidas como spammers. O spam nesse contexto representa um problema para os métodos tradicionais e já consolidados, pois tais técnicas, normalmente projetadas para processar e-mails, geralmente não obtém desempenho satisfatório quando aplicadas diretamente para classificar SMS, uma vez que essas mensagens tem tamanho reduzido e conteúdo normalmente repleto de gı́rias, sı́mbolos e abreviações. Nesse cenário, este artigo apresenta um método baseado em normalização de textos e indexação semântica com o intuito de melhorar o desempenho de algoritmos de classificação tradicionais na filtragem de spam propagados via SMS. O método proposto é utilizado para normalizar os termos das mensagens e criar novos atributos, de forma a alterar e expandir as amostrar originais, com o objetivo de suavizar fatores que podem degradar o desempenho dos algoritmos de classificação, como redundâncias e inconsistências. Os experimentos foram conduzidos com uma base de dados real, pública e não codificada, além de vários métodos tradicionais de aprendizado de máquina. A análise estatı́stica dos resultados indica que o emprego da técnica proposta, de fato, melhora a qualidade da predição das mensagens.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Incorporação de representação vetorial distribuída de palavras e parágrafos na classificação de SMS SPAM

Resumo—A classificação automática de SMS spam é um problema desafiador, pois ao contrário de outros documentos (como e-mails, por exemplo), esses textos são extremamente curtos, com no máximo 140 caracteres. Além disso, eles normalmente são escritos utilizando gírias, abreviaturas e símbolos como emoticons. Técnicas de pré-processamento tem sido aplicadas para contornar esse problema, como o us...

متن کامل

Filtragem Wavelet de Sinais Cardíacos através de Algoritmos Adaptativos

Resumo: Neste trabalho o algoritmo de Azzalini, Farge e Schneider, utilizado em análise de imagens, é modificado, produzindo uma versão adaptativa e uma recursiva para a filtragem de sinais cardíacos. Através destes algoritmos um limiar de corte é obtido baseado na variância do ruído e a série wavelet do sinal analisado é então truncada. Wavelets ortonormais de Daubechies são consideradas. Para...

متن کامل

Técnicas de Filtragem para Persistência de Dados de Redes de Sensores Ópticos FBG

Resumo. Sensores ópticos FBG ocupam um papel de destaque no monitoramento estrutural devido as suas características únicas. Taxas de aquisição cada vez mais elevadas têm sido possíveis utilizando interrogadores ópticos mais recentes, o que dá origem a um grande volume de dados cuja manipulação e armazenamento tornam-se dispendiosos em termos de processamento e também em termos de espaço de arma...

متن کامل

Identifying the Pertinent Features of SMS Spam

Mobile SMS spam is on the rise and is a prevalent problem. While recent work has shown that simple machine learning techniques can distinguish between ham and spam with high accuracy, this paper explores the individual contributions of various textual features in the classification process. Our results reveal the surprising finding that simple is better: using the largest spam corpus of which w...

متن کامل

An Effective Model for SMS Spam Detection Using Content-based Features and Averaged Neural Network

In recent years, there has been considerable interest among people to use short message service (SMS) as one of the essential and straightforward communications services on mobile devices. The increased popularity of this service also increased the number of mobile devices attacks such as SMS spam messages. SMS spam messages constitute a real problem to mobile subscribers; this worries telecomm...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014